%	\chapter{随机变量的数学特征}
	\section{数学期望}
	\begin{definition}[{离散型随机变量的数学期望}]
		设$X$是离散型随机变量，分布列是$P(X=x_j)=p_j$，若
		\begin{equation}
		\sum_{j=0}^{\infty}|x_j|p_j
		\end{equation}
		收敛，则称数学期望存在，且
		\begin{equation}
		EX=\sum_{j=0}^{\infty}x_jp_j
		\end{equation}
	\end{definition}
	\begin{definition}[{连续型随机变量的数学期望}]
		设$X$是连续型随机变量，密度为$f(x)$，如果
		\begin{equation}
		\int_{-\infty}^{+\infty}|x|f(x)dx
		\end{equation}
		收敛，则称数学期望存在，且数学期望
		\begin{equation}
		EX=\int_{-\infty}^{+\infty}xf(x)dx
		\end{equation}
	\end{definition}
	数学期望也常用$\mu$来表示。要求级数和积分绝对收敛是为了确保级数的任意两项交换次序都能有唯一的结果。数学期望反映的是随机变量的平均取值。

	\begin{theorem}[{二项分布的期望}]
		对于$X\sim B(n,p)$，有
		\begin{equation}
		EX=np
		\end{equation}
	\end{theorem}
	\begin{proof}
		考虑到
		\begin{equation}
		P(X=k)=\begin{pmatrix}
		n\\k
		\end{pmatrix}p^k(1-p)^{n-1},\quad k=0,1,\cdots n
		\end{equation}
		有
		\begin{equation}
		EX=\sum_{k=0}^{n}k\begin{pmatrix}
		n\\k
		\end{pmatrix}p^k(1-p)^{n-k}
		\end{equation}
		由于
		\begin{equation}
		k\begin{pmatrix}
		n\\k
		\end{pmatrix}=k\frac{n!}{k!(n-k!)}=n\frac{(n-1)!}{(k-1)!(n-k)!}=n\begin{pmatrix}
		n-1\\k-1
		\end{pmatrix},\quad k=1,2,\cdots,n
		\end{equation}
		故
		\begin{equation}
		EX=\sum_{k=1}^{n}n\begin{pmatrix}
		n-1\\k-1
		\end{pmatrix}p^{k-1+1}(1-p)^{(n-1)-(k-1)}
		\end{equation}
		应用二项式公式，即有
		\begin{equation}
		EX=np(p+(1-p))^{n-1}=np
		\end{equation}
		\qed
	\end{proof}
	
	\begin{theorem}[{几何分布的期望}]
		对于$X\sim G(p)$，有
		\begin{equation}
		EX=\frac{1}{p}
		\end{equation}
	\end{theorem}
	\begin{proof}
		考虑到
		\begin{equation}
		P(X=k)=(1-p)^{k-1}p,\quad k=1,2,\cdots
		\end{equation}
		则有
		\begin{equation}
		EX=\sum_{k=1}^{\infty}k(1-p)^{k-1}p
		\end{equation}
		显然该级数在$p\in(0,1)$上内闭一致收敛，所以由
		\begin{equation}
		\sum_{k=1}^{\infty}(1-p)^k=\frac{1-p}{p}
		\end{equation}
		两边同时求导得
		\begin{equation}
		\sum_{k=1}^{\infty}-k(1-p)^k=-\frac{1}{p^2}
		\end{equation}
		故
		\begin{equation}
		EX=p\sum_{k=1}^{\infty}k(1-p)^k=\frac{1}{p}
		\end{equation}
		\qed
	\end{proof}

	\begin{theorem}[{伽马分布的期望}]
		对于$X\sim\Gamma(\alpha,\beta)$，有
		\begin{equation}
		EX=\frac{\alpha}{\beta}
		\end{equation}
	\end{theorem}
	\begin{proof}
		考虑到密度
		\begin{equation}
		f(x)=\frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x},\quad x>0
		\end{equation}
		则有
		\begin{equation}
		EX=\int_{0}^{+\infty}\frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha}e^{-\beta x}
		\end{equation}
		令$t=\beta x$，则
		\begin{equation}
		EX=\frac{1}{\beta\Gamma(\alpha)}\int_{0}^{+\infty}t^\alpha e^{-t}dt=\frac{\Gamma(\alpha+1)}{\beta\Gamma(\alpha)}=\frac{\beta}{\alpha}
		\end{equation}
		\qed
	\end{proof}
	
	\begin{theorem}[离散型随机变量的期望公式]
		设$(X,Y)$为离散型随机向量，分布列为$P(X=x_i,Y=y_i)=p_{ij}$，设$g:\mathbb{R}^2\to\mathbb{R}$，现在有$Z=g(X,Y)$。则
		\begin{equation}
		EZ=Eg(X,Y)=\sum_{i,j}p_{ij}g(x_i,y_i)
		\end{equation}
	\end{theorem}
	
	\begin{theorem}[连续型随机变量的期望公式]
		设$(X,Y)$为连续型随机变量，有联合密度$f(x,y)$，则
		\begin{equation}
		EZ=Eg(X,Y)=\int_{\mathbb{R}^2}g(x,y)f(x,y)dxdy
		\end{equation}
	\end{theorem}

	\begin{corollary}
		设$(X,Y)$为连续型随机变量，有联合密度$f(x,y)$，则
		\begin{equation}
		EX=\int_{\mathbb{R}^2}xf(x,y)dxdy
		\end{equation}
	\end{corollary}
	\begin{proof}
		只要取$Z=X$，再应用连续型随机变量的期望公式即可。\qed
	\end{proof}

	下面介绍一些关于数学期望的性质。
	\begin{property}
		\begin{enumerate}
			\item 数学期望的线性性。设$X_1,\cdots,X_n$是随机变量且数学期望均存在，则$\forall a_0,a_1,\cdots,a_n\in\mathbb{R}$，有
			\begin{equation}
			E\left(a_0+\sum_{i=1}^{n}a_iX_i\right)=a_0+\sum_{i=1}^{n}a_iEX_i
			\end{equation}
			
			\item 相互独立随机变量积的期望等于期望之积。设$X_1,\cdots,X_n$相互独立，且数学期望均存在，则
			\begin{equation}
			E\prod_{i=1}^{n}X_i=\prod_{i=1}^{n}EX_i
			\end{equation}
			
			\item 单调性。若$X_1\leq X_2$几乎必然成立，则
			\begin{equation}
			EX_1\leq EX_2
			\end{equation}几乎必然成立。
		\end{enumerate}
	\end{property}
	\begin{proof}
		\begin{enumerate}
			\item 设$f(x_1,\cdots,x_n)$是联合密度，$EX_i$存在，则
			\begin{equation}
			\begin{aligned}
				\int_{\mathbb{R}^n}\left|a_0+\sum_{i=1}^{n}a_ix_i\right|&f(x_1,\cdots,x_n)dx_1\cdots dx_n\\
				&\leq |a_0|+\sum_{i=1}^n |a_i|\int_{\mathbb{R}^n}|x_i|f(x_1,\cdots,x_n)dx_1\cdots dx_n
			\end{aligned}
			\end{equation}
			绝对收敛，所以期望存在，且有
			\begin{equation}
			\begin{aligned}
			E\left(a_0+\sum_{i=1}^{n}a_iX_i\right)&=\int_{\mathbb{R}^n}\left(a_0+\sum_{i=1}^{n}a_ix_i\right)f(x_1,\cdots,x_n)dx_1\cdots dx_n\\
			&=a_0+\sum_{i=1}^n a_i\int_{\mathbb{R}^n}x_if(x_1,\cdots,x_n)dx_1\cdots dx_n\\
			&=a_0+\sum_{i=1}^{n}a_iEX_i
			\end{aligned}
			\end{equation}
			\item 不失一般性，考虑随机向量$(X,Y)$。不妨设$X$的密度为$f_X$，$Y$的密度为$f_Y$。由相互独立性可知
			\begin{equation}
			f(x,y)=f_X(x)f_Y(y)
			\end{equation}
			是联合密度。从而根据Fubini定理，
			\begin{equation}
			\int_{\mathbb{R}^2}|xy|f(x,y)dxdy=\int_{-\infty}^{+\infty}|x|f_X(x)dx\int_{-\infty}^{+\infty}|y|f_Y(y)dy=E|X|\cdot E|Y|<\infty
			\end{equation}
			因此，$EXY$存在。另一方面，由Fubini定理可知$xyf(x,y)$绝对收敛，所以
			\begin{equation}
			EXY=\int_{\mathbb{R}^2}xyf(x,y)dxdt=\int_{-\infty}^{+\infty}xf_X(x)dx\int_{-\infty}^{+\infty}yf_Y(y)dy=EXEY
			\end{equation}
			\item 显然。
		\end{enumerate}\qed
	\end{proof}

	\begin{theorem}[超几何分布的数学期望]
		有$N$个产品，其中$M$个次品，从中任取$n$个，设$X$为$n$个中的次品数目，即$X\sim H(n,M,N)$。则
		\begin{equation}
		EX=n\frac{M}{N}
		\end{equation}
	\end{theorem}
	\begin{proof}
		定义示性随机变量列
		\begin{equation}
		\xi_i\begin{cases}
		1\quad&\text{第i次取到的商品是次品}\\
		0\quad&\text{第i次取到的商品不是次品}
		\end{cases},\quad i=1,\cdots,n
		\end{equation}
		从而有$X=\sum_{i=1}^{n}\xi_i$。由线性性，
		\begin{equation}
		EX=\sum_{i=1}^{n}E\xi_i
		\end{equation}
		考虑到每次抽取都是无放回的抽签，因此
		\begin{equation}
		E\xi_i = P(\xi_i=1)=\frac{M}{N},\quad i=1,\cdots,n
		\end{equation}
		故
		\begin{equation}
		EX=n\frac{M}{N}
		\end{equation}
		\qed
	\end{proof}

	在定义数学期望时，离散型随机变量和连续型随机变量是分开定义的。下面这种方法对于离散型、连续型及混合型随机变量都是等价的。
	\begin{theorem}[数学期望的等价定义]
		假设$X\in[a,\infty)$几乎必然成立。$F$是$X$的分布函数，则
		\begin{equation}
		EX=a+\int_{a}^{+\infty}(1-F(x))dx
		\end{equation}
	\end{theorem}
	\begin{proof}
		考虑连续型随机变量：
		\begin{equation}
		\begin{aligned}
		R.H.S&=a+\int_{a}^{+\infty}(1-F(x))dx=a+\int_{a}^{+\infty}P(X>x)dx\\
		&=a+\int_{a}^{+\infty}dx\int_{x}^{+\infty}f(t)dt
		=a+\int_{a}^{+\infty}f(t)dt\int_{a}^{t}dx\\
		&=a+\int_{a}^{+\infty}tf(t)dt-a\int_a^{+\infty}f(t)dt
		=\int_{a}^{+\infty}tf(t)dt=EX
		\end{aligned}
		\end{equation}
		考虑离散型随机变量：
		\begin{equation}
		\begin{aligned}
		R.H.S&=a+\int_{a}^{+\infty}(1-F(x))dx=a+\int_{a}^{+\infty}P(X>x)dx\\
		&=a+\int_{a}^{+\infty}\sum_{X>x}p_idx=a+\sum_{X>a}p_i\int_{a}^{X|_{P(X)=p_i}}dx\\
		&=a+\sum_{X>a}p_iX-a\sum_{X>a}p_i=\sum_{X>a}p_iX=EX
		\end{aligned}
		\end{equation}\qed
	\end{proof}

	\section{数学期望的等式及不等式}
	示性随机变量列给我们以启发：考虑样本点$\omega\in\Omega$，一个事件$A$的示性函数是$I_A(\omega)$，那么随机变量$I_A(\omega)$的数学期望事实上就是这个事件的概率。从这个事实出发可以得到很多重要的不等式。
	
	\begin{theorem}[Jordan公式]
		设$A_1,\cdots,A_n$均为事件，则
		\begin{equation}
		P\left(\bigcup_{i=1}^{n}A_i\right)=\sum_{k=1}^{n}(-1)^{k-1}\sum_{1\leq j_1<j2<\cdots<j_k\leq n}P(A_{j_1}\cdots A_{j_n})
		\end{equation}
	\end{theorem}
	\begin{proof}
		记$I[A_i]$为事件$A_i$的示性函数。由事件之间的运算，容易知道
		\begin{equation}
		I[A]=1-I[\overline{A}],\quad I[AB]=I[A]I[B]
		\end{equation}
		那么就有
		\begin{equation}
		I\left[\bigcup_{i=1}^{n}A_i\right]=1-I\left[\bigcap_{i=1}^n \overline{A}_j\right]=1-\prod_{j=1}^{n}I[\overline{A}_j]
		\end{equation}
		从而
		\begin{equation}
		I\left[\bigcup_{i=1}^{n}A_i\right]=1-\prod_{j=1}^n(1-I[A_j])=\sum_{k=1}^{n}(-1)^{k-1}\sum_{1\leq j_1<j2<\cdots<j_k\leq n}I[A_{j_1}\cdots A_{j_n}]
		\end{equation}
		对上式两边同时取数学期望，即得
		\begin{equation}
		P\left(\bigcup_{i=1}^{n}A_i\right)=\sum_{k=1}^{n}(-1)^{k-1}\sum_{1\leq j_1<j2<\cdots<j_k\leq n}P(A_{j_1}\cdots A_{j_n})
		\end{equation}\qed
	\end{proof}
	
	\begin{theorem}[Markov不等式]
		设$X$是随机变量，满足$P(X\geq 0)=1$，也就是说$X\geq 0$几乎必然成立，那么$\forall c>0,\ \alpha>0$，有
		\begin{equation}
		P(X\geq c)\leq \frac{EX^\alpha}{c^\alpha}
		\end{equation}
	\end{theorem}
	\begin{proof}
		考虑$I[X\geq c]$，当且仅当$X\geq c$时，其值为1。所以
		\begin{equation}
		I[X\geq c]\leq 1\leq \left(\frac{X}{c}\right)^{\alpha}
		\end{equation}
		对两边同时求数学期望，就得到
		\begin{equation}
		P(X\geq c)\leq \frac{EX^\alpha}{c^\alpha}
		\end{equation}\qed
	\end{proof}
	Markov不等式很松，在大多数情况下，其得出的概率上界都与真实的概率相差甚远。但其所需的条件很少，所以依然应用广泛。
	
	\begin{theorem}[Chebyshev不等式]
		设$X$是随机变量，$\forall c>0$，都有
		\begin{equation}
		P(|X-EX|\geq c)\leq \frac{VarX}{c^2}
		\end{equation}
	\end{theorem}
	\begin{proof}
		令Markov不等式中$X$为$|X-EX|$，且$\alpha=2$即可。
	\end{proof}
	
	另一个重要的不等式是内积不等式。
	\begin{theorem}[内积不等式]
		设$X,Y$为随机变量，$EX^2,\ EY^2<\infty$，则
		\begin{equation}
		|EXY|\leq\sqrt{EX^2 EY^2}
		\end{equation}
		当且仅当$\exists\ a,b$不全为零，使得$aX+bY=0$几乎必然成立。
	\end{theorem}
	\begin{proof}
		取$a,b$不全为$0$，考虑
		\begin{equation}
		E(aX+bY)^2=a^2EX^2+2abEXEY+b^2EY^2\geq 0
		\end{equation}
		上式可以看作是关于$(a,b)$的二次型，从而可以写成
		\begin{equation}
		\begin{bmatrix}
		a&b
		\end{bmatrix}
		\begin{bmatrix}
		EX^2& EXY\\
		EXY& EY^2
		\end{bmatrix}
		\begin{bmatrix}
		a\\b
		\end{bmatrix}\geq 0
		\end{equation}
		从而二次型对应的矩阵是半正定的。它的行列式值
		\begin{equation}
		EX^2EY^2-E^2XY\geq 0
		\end{equation}
		而且，当且仅当矩阵不满秩时行列式为零，此时正是$\exists\ a,b$不全为零，使得$aX+bY=0$几乎必然成立。\qed
	\end{proof}
	事实上，这种不等式之所以叫做内积不等式是因为$E(XY)$可以作为随机变量$X,Y$内积的一种定义。它满足正定性、对称性以及对第一个变量线性的要求。这样，内积不等式事实上就是由EXY定义的内积空间中的Cauchy-Schwarz不等式。
	
	\section{方差}
	为了度量随机变量的分布有多靠近平均值，最自然的方案是考虑$X-\mu$。然而，由于线性性，直接对其取数学期望的话得到的结果总是零。因此，一个自然的想法就是取$(X-\mu)^2$的期望。这是代数上最简单的结果，因为取绝对值实际上还多了一次开根号的操作，而且还不是处处可导的。
	\begin{definition}[方差及标准差]
		若随机变量$X$的数学期望$\mu$存在且有限，则$X$的方差为
		\begin{equation}
		VarX=E(X-\mu)^2
		\end{equation}
		方差也可以记位$DX$或$\sigma_{XX}$。如果方差有限，则称
		\begin{equation}
		\sigma_X=\sqrt{VarX}=\sqrt{E(X-\mu)^2}
		\end{equation}
		为$X$的标准差。
	\end{definition}
	\begin{theorem}[方差计算方法]
		若随机变量$X$的数学期望$\mu$及方差$VarX$存在且有限，则方差
		\begin{equation}
		VarX=EX^2-E^2X
		\end{equation}
		其中$EX^2=E(X^2)$，而$E^2X=(EX)^2$。
	\end{theorem}
	\begin{proof}
		由期望的线性性，
		\begin{equation}
		VarX=E(X-\mu)^2=EX^2-2\mu EX+\mu^2
		\end{equation}
		注意到$\mu=EX$，故
		\begin{equation}
		VarX=EX^2-E^2X
		\end{equation}
		\qed
	\end{proof}

	方差具有如下性质：
	\begin{property}
		\begin{enumerate}
			\item \begin{equation}
			Var(a+bX)=b^2VarX
			\end{equation}
			\item 如果$c\neq \mu$，则
			\begin{equation}
			VarX<E(X-c)^2
			\end{equation}
			\item $VarX=0$的充要条件是$X=\mu$几乎必然成立。
			\item \begin{equation}
			Var\left(\sum_{j=1}^{n}X_j\right)=\sum_{i=1}^{n}\sum_{j=1}^{n}(EX_iX_j-EX_iEX_j)
			\end{equation}
			\item 如果$X_1,\cdots,X_n$相互独立，则
			\begin{equation}
			Var\left(\sum_{j=1}^{n}X_j\right)=\sum_{j=1}^{n}VarX_j
			\end{equation}
		\end{enumerate}
	\end{property}
	\begin{proof}
		\begin{enumerate}
			\item 由期望的线性性显然。
			\item 由\begin{equation}
			\begin{aligned}
			E(X-c)^2&=E(X-\mu+\mu-c)^2\\
			&=E(X-\mu)^2+2E(X-\mu)(\mu-c)+(\mu-c)^2\\
			&=VarX+(\mu-c)^2>VarX
			\end{aligned}
			\end{equation}
			\item 充分性显然，下面证明必要性。考虑$Y=X-\mu$，由于
			\begin{equation}
			VarY=VarX=EX^2-\mu^2=0=EY^2
			\end{equation}
			由于$Y^2>0$几乎必然成立，从而$Y=0$几乎必然成立。因此，$X=\mu$几乎必然成立。
			\item 由数学期望的线性性，有
			\begin{equation}
			\begin{aligned}
			Var\left(\sum_{j=1}^{n}X_j\right)&=E\left(\sum_{j=1}^{n}X_j\right)^2-E^2\sum_{j=1}^{n}X_j\\
			&=E\left(\sum_{i=1}^{n}\sum_{j=1}^{n}X_iX_j\right)-
			\sum_{i=1}^{n}\sum_{j=1}^{n}EX_iEX_j\\
			&=\sum_{i=1}^{n}\sum_{j=1}^{n}\left(EX_iX_j-EX_iEX_j\right)
			\end{aligned}
			\end{equation}
			\item 如果$X_i,\cdots,X_n$相互独立，则
			\begin{equation}
			EX_iX_j=EX_iEX_j,\quad \forall i\neq j
			\end{equation}
			再应用性质四可得。
		\end{enumerate}\qed
	\end{proof}
	
	\begin{theorem}[超几何分布的方差]
		有$N$个产品，$M$个次品，从中任取$n$个，$X$为这$n$个产品中的次品数目。$X\sim H(n,M,N)$。则超几何分布的方差为
		\begin{equation}
		VarX=n\frac{M}{N}\left(1-\frac{M}{N}\right)\frac{N-n}{N-1}
		\end{equation}
	\end{theorem}
	\begin{proof}
		考虑示性随机变量列
		\begin{equation}
		\xi_i=\begin{cases}
		1\quad&\text{第i次取到的商品是次品}\\
		0\quad&\text{第i次取到的商品不是次品}
		\end{cases},\quad i=1,\cdots,n
		\end{equation}
		从而有$X=\sum_{i=1}^{n}\xi_i$，$X$的方差则写为
		\begin{equation}
		VarX=Var\left(\sum_{i=1}^{n}\xi_i\right)
		=\sum_{i=1}^{n}\sum_{j=1}^{n}(E\xi_i\xi_j-E\xi_iE\xi_j)
		\end{equation}
		考虑到
		\begin{equation}
		P(\xi_i=1)=\frac{M}{N},\quad \forall i=1,\cdots,n
		\end{equation}
		从而
		\begin{equation}
		VarX=\sum_{i=1}^{n}(E\xi_i^2-E^2\xi_i)+\sum_{i=1}^{n}\sum_{j=1, j\neq i}^{n}(E\xi_i\xi_j-E\xi_iE\xi_j)
		\end{equation}
		其中第一项为
		\begin{equation}
		\sum_{i=1}^{n}(E\xi_i^2-E^2\xi_i)=nVar\xi_1=n\left(\frac{M}{N}-\left(\frac{M}{N}\right)^2\right)
		\end{equation}
		第二项为
		\begin{equation}
		\begin{aligned}
		\sum_{i=1}^{n}\sum_{j=1, j\neq i}^{n}(E\xi_i\xi_j-E\xi_iE\xi_j)&=(n^2-n)(E\xi_1\xi_2-E\xi_1E\xi_2)\\
		&=(n^2-n)\left(\frac{M}{N}\frac{M-1}{N-1}-\left(\frac{M}{N}\right)^2\right)
		\end{aligned}
		\end{equation}
		故
		\begin{equation}
		VarX=n\frac{M}{N}\left(1-\frac{M}{N}\right)\frac{N-n}{N-1}
		\end{equation}\qed
	\end{proof}
	
	\section{协方差与相关系数}
	\begin{definition}[协方差]
		设随机变量$X,Y$的期望、方差均存在且有限。$\mu_X=EX,\ \mu_Y=EY$。如果$E|(X-EX)(E-EY)|<\infty$，则定义
		\begin{equation}
		cov(X,Y)=E(X-EX)(Y-EY)
		\end{equation}
		作为$X,Y$的协方差，也记作$\sigma_{XY}$。
	\end{definition}
	\begin{definition}{相关系数}
		称
		\begin{equation}
		\rho_{XY}=\frac{\sigma_{XY}}{\sigma_X\sigma_Y}
		\end{equation}
		为$X,Y$的相关系数。当$cov(X,Y)=0$时，称$X,Y$不相关。
	\end{definition}
	
	\begin{theorem}[协方差公式]
		设随机变量$X,Y$的期望、方差均存在且有限。$\mu_X=EX,\ \mu_Y=EY$。则协方差可由下式计算：
		\begin{equation}
		cov(X,Y)=EXY-EXEY
		\end{equation}
	\end{theorem}
	\begin{proof}
		注意到数学期望的线性性，有
		\begin{equation}
		cov(X,Y)=EXY-\mu_XEY-\mu_YEX+\mu_X\mu_Y=EXY-EXEY
		\end{equation}\qed
	\end{proof}
	
	\begin{theorem}
		独立的随机变量必定是不相关的。
	\end{theorem}
	\begin{proof}
		由数学期望的性质2：相互独立的随机变量积的期望等于期望之积可得。\qed
	\end{proof}
	然而，不相关的随机变量却并不一定是独立的。比如，在单位圆$D$内均匀分布的随机向量$(X,Y)$显然是不相关的，但它们却并不是相互独立的。
	
	由于相关系数只能刻画线性关系的程度，而不能刻画一般函数相依关系的程度，在概率论中还引进了另一些相关性指标。但这些指标都未能在应用中推广开来，这是因为，在统计学应用上，最重要的二维分布是正态分布，此时相关系数是对相关性的完美刻画。在二维正态分布中，相关系数为零便可以断定$X,Y$相互独立。
	
	相关系数有如下性质：
	\begin{property}
		\begin{enumerate}
			\item $|\rho_{XY}|\leq 1$，当且仅当$\exists\ a,b,\ s.t.\ Y=a+bX$几乎必然成立时，等号成立。
			\item 如果$X,Y$独立，则$\rho_{X,Y}=0$。
		\end{enumerate}
	\end{property}
	\begin{proof}
		\begin{enumerate}
			\item 由内积不等式
			\begin{equation}
			E^2(X-EX)(Y-EY)\leq E(X-EX)^2E(Y-EY)^2
			\end{equation}
			故
			\begin{equation}
			cov^2(X,Y)\leq VarX\cdot VarY
			\end{equation}
			从而$\rho_{XY}^2\leq 1$。
			\item 显然。
		\end{enumerate}\qed
	\end{proof}

	为了引入协方差矩阵，先定义随机向量的数学期望。
	\begin{definition}[随机向量的数学期望]
		对于随机向量$\vec{X}=(X_1,\cdots,X_n)$，其数学期望为
		\begin{equation}
		\vec{\mu}=E\vec{X}=(EX_1,\cdots,EX_n)
		\end{equation}
	\end{definition}
	事实上，完全可以用Einstein记号来表示：
	\begin{equation}
	\vec{\mu}=EX_i
	\end{equation}
	这就非常trivial了。很显然， 在这种情形下的数学期望保持了线性性：
	\begin{equation}
	E(\vec{a}\vec{X}^{T})=E\sum_{i=1}^n a_iX_i=\sum_{i=1}^{n}a_iEX_i=\vec{a}E\vec{X}^{T}
	\end{equation}
	类似地，还有$(E\vec{X})^{T}=E\vec{X}^{T}$，以及$E(AYB)=A(EY)B$。
	
	\begin{definition}[协方差矩阵]
		设随机向量$\vec{X}=(X_1,\cdots,X_n)$，其协方差矩阵为
		\begin{equation}
		\Sigma=E(\vec{X}-\vec{\mu})^{T}(\vec{X}-\vec{\mu})
		\end{equation}
		矩阵中的每一个元素为
		\begin{equation}
		\sigma_{ij}=cov(X_i,X_j)=E(X_i-EX_i)(X_j-EX_j)
		\end{equation}
	\end{definition}

	协方差矩阵具有如下性质：
	\begin{property}
		\begin{enumerate}
			\item 协方差矩阵是对称阵。
			\item 协方差矩阵是半正定阵。
			\item $\Sigma$不满秩，当且仅当$\exists a_1,\cdots,a_n$不全为零，使得
			\begin{equation}
			\sum_{i=1}^na_i(X_i-EX_i)=0
			\end{equation}
			几乎必然成立。
		\end{enumerate}
	\end{property}
	\begin{proof}
		\begin{enumerate}
			\item 显然。
			\item 对于任意的行向量$\vec{a}=(a_1,\cdots,a_n)$，其二次型为
			\begin{equation}
			\begin{aligned}
			\vec{a}\Sigma\vec{a}^{T}&=\sum_{i=1}^n\sum_{j=1}^na_i\sigma_{ij}a_j=E\left(\sum_{i=1}^n a_i(X_i-\mu_i)\right)^2\\
			&=Var\left(\sum_{i=1}^n a_i(X_i-\mu_i)\right)\geq 0
			\end{aligned}
			\end{equation}
			\item 一方面，当$\Sigma$退化时，存在非零向量$\vec{a}$使得二次型
			\begin{equation}
			\vec{a}\Sigma\vec{a}^{T}=Var\left(\sum_{i=1}^n a_i(X_i-\mu_i)\right)=0
			\end{equation}
			故此时
			\begin{equation}
			\sum_{i=1}^na_i(X_i-EX_i)=0
			\end{equation}
			几乎必然成立；另一方面，同理可得。
		\end{enumerate}\qed
	\end{proof}
	
	\section{条件数学期望}
	
	\begin{definition}[条件数学期望]
		设$(X,Y)$是连续型随机向量，$f$是联合密度，则已知$Y=y$条件下$X$的条件密度为$f_{X|Y}(x|y)$。类似地，在$Y=y$的条件下，$X$的期望则是
		\begin{equation}
		E(X|Y=y)=\int_{-\infty}^{+\infty}xf_{X|Y}(x|y)dx=\int_{-\infty}^{+\infty}x\frac{f(x,y)}{f_Y(y)}dx
		\end{equation}
		记$g(y)=E(X|Y=y)$，则称$g(Y)=E(X|Y)$是$X$关于$Y$的条件数学期望。
	\end{definition}
	$E(X|Y)$是一个与$Y$相关的\emph{随机变量}。它反映了$y$取值变动时，$E(X|Y=y)$会如何变动。
	
	条件数学期望具有如下性质：
	\begin{property}
		\begin{enumerate}
			\item 线性性。$\forall\ a_0,a_1,\cdots,a_n\in\mathbb{R}$，都有
			\begin{equation}
			E\left(\left. a_0+\sum_{i=1}^n a_iX_i\right| Y\right)=a_0+\sum_{i=1}^n a_iE(X_i|Y)
			\end{equation}
			\item 对于随机变量$g(X),h(Y)$，有
			\begin{equation}
			E\left(h(Y)g(X)|Y\right)=h(Y)E\left(g(X)|Y\right)
			\end{equation}
			\item 如果$X,Y$独立，则
			\begin{equation}
			E(g(X)|Y)=E(g(X))
			\end{equation}
			\item 全期望公式：对于随机变量$g(X)$，有
			\begin{equation}
			E\left[E(g(X)|Y)\right]=Eg(X)
			\end{equation}
		\end{enumerate}
	\end{property}
	\begin{proof}
		\begin{enumerate}
			\item 由数学期望的性质可得。
			\item $\forall\ y\in\mathbb{R}$，都有
			\begin{equation}
			E\left(h(Y)g(X)|Y=y\right)=E\left(h(y)g(X)|Y=y\right)=h(y)E(g(X)|Y=y)
			\end{equation}
			\item $\forall\ y\in\mathbb{R}$，都有
			\begin{equation}
			E(g(X)|Y=y)=\int_{-\infty}^{+\infty}g(x)f(x)dx=E(g(X))
			\end{equation}
			\item 我们有
			\begin{equation}
			E\left(g(X)|Y=y\right)=\int_{-\infty}^{+\infty}g(x)\frac{f(x,y)}{f_Y(y)}dx
			\end{equation}
			而$E\left(g(X)|Y=y\right)$事实上是$y$的函数，所以对$E\left(g(X)|Y\right)$求期望就相当于对$Y$求期望：
			\begin{equation}\begin{aligned}
			E\left[E\left(g(X)|Y\right)\right]&=\int_{\mathbb{R}}E(g(X)|Y=y)f_Y(y)dy\\
			&=\int_{\mathbb{R}^2}g(x)f(x,y)dxdy=E(g(X))
			\end{aligned}\end{equation}
		\end{enumerate}\qed
	\end{proof}
	
	全期望公式本质上就是全概率公式的期望版本。在不同的$Y=y$下，$g(X)$的期望会随$y$的变化而变化，那么再对这些不同的$y$取平均，也就是对随机变量$Y$也求期望，当然就得到了原始的$g(X)$的期望。
	
	类似地，还可以定义条件方差：
	\begin{definition}[条件方差]
		设$(X,Y)$是连续型随机向量，则称
		\begin{equation}
		Var(X|Y)=E(X^2|Y)-E^2(X|Y)
		\end{equation}
		为$X$关于$Y$的条件方差。
	\end{definition}
	
	一般来讲，求期望的一般步骤是先求出概率密度，然后计算积分。但很多情况下，可以用全期望公式来求解。例题：
	
	某超市某日的顾客总数为$N$，$N$满足泊松分布$N\sim P(\lambda)$。顾客之间消费额独立且同分布，且与$N$独立。设$S$是全天营业额，$\mu$是顾客平均消费，求该日平均营业额。
	
	解法如下：设$X_i$为第$i$个客人的消费额，则有
	\begin{equation}
	S=\sum_{i=1}^NX_i,\quad EX_i=\mu
	\end{equation}
	当$N=n$时，$S$的条件分布为
	\begin{equation}
	E(S|N=n)=E\left(\left. \sum_{i=1}^nX_i\right|N=n\right)
	\end{equation}
	由于顾客消费额与顾客人数独立，则根据条件数学期望的性质，有
	\begin{equation}
	E(S|N=n)=E\left(\sum_{i=1}^nX_i\right)=n\mu
	\end{equation}
	于是
	\begin{equation}
	E(S|N)=N\mu
	\end{equation}
	再利用全期望公式，可得
	\begin{equation}
	ES=E[E(S|N)]=E(N\mu)=\mu EN=\lambda\mu
	\end{equation}
	这个例子证明了一个看上去很显然的事实，也就是平均顾客数乘以平均消费额等于平均营业额。
	
	最后，可以用下列公式来求条件数学期望
	\begin{theorem}
		设$A$是事件，$P(A)>0$，$E(X|A)$存在，$I[A]$是$A$的示性函数，则
		\begin{equation}
		E(X|A)=\frac{E(XI[A])}{P(A)}
		\end{equation}
	\end{theorem}

	例题：设$X$服从指数分布$X\sim\varepsilon(\lambda)$，求证$\forall a>0$，都有
	\begin{equation}
	E(X-a|X>a)=EX
	\end{equation}
	\begin{proof}
		我们有
		\begin{equation}
		\begin{aligned}
		E(X|X>a)&=\frac{E(XI[X>a])}{P(X>a)}\\
		&=\frac{1}{e^{-\lambda a}}\int_{a}^{+\infty}x\lambda e^{-\lambda x}dx\\
		&=\frac{1}{\lambda}+a=EX+a
		\end{aligned}
		\end{equation}
		这事实上就来源于指数分布的无记忆性。\qed
	\end{proof}

	\section{随机变量的最佳预测}
	在所有用$Y$的函数对$X$进行预测中，条件数学期望$E(X|Y)$在均方差的意义下是最优的。
	
	\begin{lemma}
		设$X,Y$是随机变量，$EX^2,EY^2<\infty$，$h$是实函数，则
		\begin{equation}
		E[h(Y)(X-E(X|Y))]=0
		\end{equation}
	\end{lemma}
	\begin{proof}
		由内积不等式，有
		\begin{equation}
		E|Xh(Y)|\leq \sqrt{EX^2Eh^2(Y)}<\infty
		\end{equation}
		所以数学期望$E(Xh(Y))$存在。则根据全期望公式，
		\begin{equation}\begin{aligned}
		E[h(Y)(X-E(X|Y))]&=E[Xh(Y)]-E[E(Xh(Y)|Y)]\\
		&=E[Xh(Y)]-E[Xh(Y)]=0
		\end{aligned}\end{equation}
		\qed
	\end{proof}
	
	\begin{theorem}[最佳预测]
		设$X,Y$是随机变量，$EX^2<\infty$，$g(y)$是任意的实函数。则
		\begin{equation}
		E[X-E(X|Y)]^2\leq E[X-g(Y)]^2
		\end{equation}
		等号成立当且仅当$g(Y)=E(X|Y)$几乎必然成立。
	\end{theorem}
	\begin{proof}
		首先，需要讨论$Eg^2(Y)$是否有限。一方面，如果$Eg^2(Y)=\infty$，则由于$E(2X-g(Y))^2\geq 0$，从而
		\begin{equation}\begin{aligned}
		E(X-g(Y))^2\geq EX^2+\frac{1}{2}Eg^2(Y)=\infty
		\end{aligned}\end{equation}
		于是不等式得证。
		
		另一方面，如果$Eg^2(Y)<\infty$，则由内积不等式，有
		\begin{equation}\begin{aligned}
		E^2(X|Y)\leq E(X^2|Y)
		\end{aligned}\end{equation}
		所以由全期望公式
		\begin{equation}\begin{aligned}
		E[E^2(X|Y)]\leq EX^2 <\infty
		\end{aligned}\end{equation}
		此时
		\begin{equation}
		E[E(X|Y)-g(Y)]^2<\infty
		\end{equation}
		这证明了此时各期望的存在性。接下来证明不等式：
		\begin{equation}\begin{aligned}
		E[X-g(Y)]^2=&E[X-E(X|Y)+E(X|Y)-g(Y)]^2\\
		=&E[X-E(X|Y)]^2+E[E(X|Y)-g(Y)]^2\\
		&+2E[(X-E(X|Y))(E(X|Y)-g(Y))]
		\end{aligned}\end{equation}
		令$h(Y)=E(X|Y)-g(Y)$，则根据前述引理，有
		\begin{equation}\begin{aligned}
		E[(X-E(X|Y))(E(X|Y)-g(Y))]=0
		\end{aligned}\end{equation}
		从而
		\begin{equation}\begin{aligned}
		E[X-g(Y)]^2=&E[X-E(X|Y)]^2+E[E(X|Y)-g(Y)]^2\\
		\geq&E[X-E(X|Y)]
		\end{aligned}\end{equation}
		当且仅当$g(Y)=E(X|Y)$几乎处处成立时，等号成立。
		\qed
	\end{proof}

	事实上，可以把随机向量$f(X),g(Y)$视作线性空间，定义范数$\|\alpha(X,Y)\|=\sqrt{E\alpha^2(X,Y)}$，而内积则定义为$(\alpha(X,Y),\beta(X,Y))=E\alpha\beta$。由此还可以定义距离为$d(\alpha,\beta)=\|\alpha-\beta\|$，并且有内积不等式
	\begin{equation}
	E^2(\alpha\beta)\leq E\alpha^2E\beta^2
	\end{equation}
	而且等号在$\alpha(X,Y)$与$\beta(X,Y)$线性相关时取到。
	
	在内积空间的观点下，上面定理的意义就很明显了：向量$h(Y)$与向量$X-E(X|Y)$之间的内积等于零。由于$E(X|Y)$实际上是关于$Y$的随机变量(不妨记作$g(Y)$)，那么$g(Y)$就应当是$X$在$h(Y)$方向上的投影。
	
	类似地，还有勾股定理：
	\begin{equation}
	E[E^2(X|Y)]+E[(X-E(X|Y))^2]=EX^2
	\end{equation}
	直角三角形斜边大于直角边：
	\begin{equation}
	EX^2\geq E[X-E(X|Y)]^2
	\end{equation}
	以及
	\begin{equation}
	EX^2\geq E[E^2(X|Y)]
	\end{equation}
	等等。
	
	最佳预测定理告诉我们，如果想用随机变量$Y$的函数去拟合$X$，要想使得均方差(残差平方和的平均)最小，那么$E(X|Y)$这个$Y$的函数就是我们的选择。
	
	那么在二维正态分布里，如果$(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)$，则通过计算
	\begin{equation}
	E(X|Y=y)=\int_{-\infty}^{+\infty}xf_{X|Y}(x|y)dx
	\end{equation}
	可知
	\begin{equation}
	E(X|Y)=\mu_1+\rho\frac{\sigma_1}{\sigma_2}(Y-\mu_2)
	\end{equation}
	也就是说，$E(X|Y)$是$Y$的线性函数。所以，对于正态分布而言，最佳预测的问题此时就是最佳线性预测的问题。这也是线性回归被广泛应用的原因。
	